查看原文
其他

太愁了!这个分析需要哪种数据?原始count?标准化?抽平?FPKM?TPM?

生信宝典 生信宝典 2023-06-29

哪一步分析用哪种格式的数据?


用什么方法处理过的数据?


做PCA是不是要用原始Count?


抽平的数据和原始Count什么区别?


....


选择什么数据,好像比选美都难


...


我们自己学的时候总会有这些关于数据使用的疑问


现在每天也在接受各种这样的询问


怎么处理?


之前,关于怎么拿到合适格式的数据,


如基因在行,样品在列?还是样品在行,基因在列?


我们整理了下面这个文章


我是不会运行你的代码吗?不,我是不会导入自己的数据!


应该是搞明白了!


再进一步,这个表格里的数据是需要做过什么处理的,又成了问题。

下面两张PPT给出一个不失一般性的原则,可供参考!


不同样本之间比较时,如果用的程序不能自己做数据在样本间的标准化,那一定要提供标准化后的数据!




澄清一个疑问:DESeq2/edgeR做差异分析时是只能两组之间比较,但不是说DESeq2/edgeR不能对所有的数据一起标准化,一样可以获得标准化后的结果用于后续其它分析。


数据标准化是标准化


差异检验是差异检验


显著差异筛选是显著差异筛选


这是3个步骤,不能因为一个函数可以完成,就以为是一步!!




数据转换是为了优化,


是为了更好展现数据分布规律,


是为了尽量减小异常值的影响,


如下:


多试就好,不一定你的数据适合什么转换!



其它一些个例!




往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存